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摘要 : [目的 /意义 ] 提出 一 种 以 情感 如 权 算 法 和 朴 素 贝 叶 斯 算法 为 基础 的 组 合 分 类 模型 (SWNB 模 
型 ) ， 半 在 对 中 文 微 博 话题 的 立场 进行 判别 。 [ 方法 /过程 ] 该 模型 首先 通过 给 定 的 复杂 名 模型 对 微 博 进 
行 简化 ， 然 后 依据 情感 规则 得 到 情感 权 值 ， 提 取 微 博 中 与 话题 相关 的 实体 并 进行 优化 ， 进 而 将 微 博 分 为 包 
含 立 场 和 未 表明 立场 (NONE ) 两 类 ; 再 对 包含 立场 的 微 博 提取 特征 词 ， 利 用 朴素 贝 叶 斯 算法 将 其 立场 判 
别 为 支持 (FAVOR ) 或 反对 (AGAINST ) . [结果 /结论 ] 实验 结果 表明 ， 本 模型 有 较 好 的 立场 判别 精度 ， 
并 能 同时 有 效 地 处 理 中 文 复杂 名 式 、 话 题 相关 评价 对 象 以 及 上 下 文 语 境 等 复杂 情形 。 
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@5| 言 CNONE) 中 ,及 时 把 握 微 博 中 热点 话题 的 立场 , 有 
沂 年 来 ， 社 会 媒体 攻 拐 发 展 以 ” 效 提取 用 户 的 情感 信息 ， 已 成 为 与 情 分 析 、 与 

Twitter、 新 浪 微 博 为 代表 的 微 博 平台 凭借 其 及 “， 论 监 督 以 及 企业 改进 产品 体验 等 方面 的 有 力 于 

时 便捷 的 互动 方式 、 简 单 多 样 的 操作 方式 、 高 。 眉 。 

效 开放 的 传播 方式 逐渐 成 为 全 球 热 点 信息 的 伟 

揪 中 心 。 越 来 越 多 的 用 户 选 择 在 微 博 上 表达 。 全 相关 工作 


情感 体验 、 点 评 时 事 热 点 ， 微 博 中 包含 了 用 户 
丰富 的 情感 信息 。 因 此 ， 文 本 倾向 性 分 析 领 域 
也 涌现 出 立场 判别 这 一 研究 热点 ， 立 场 判别 
是 指 能 够 自动 判别 文本 作者 对 于 给 定 的 目标 
话题 (Target) 是 否 持 有 文 持 CFAVOR) 、 反 
对 (AGAINST) 立场 或 是 未 表明 任何 立场 


立场 判别 虽然 是 文本 倾向 性 分 析 人 研究 的 一 
部 分 ， 但 有 别 于 传统 的 情感 分 析 。 传 统 的 情感 
分 析 通 过 分 析 带 有 情感 色彩 或 误 贬 倾向 的 主观 
性 文本 ， 挖 气 其 中 的 观点 ， 直 接 获取 文本 中 所 
包含 对 象 的 评价 信息 中。 然而 立场 判别 强调 文 
本 对 于 给 定 的 目标 话题 是 否 持 有 支持 、 反 对 立 
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场 或 是 未 表明 任何 立场 ， 文 本 自身 可 能 不 带 有 
任何 情感 色彩 和 主观 性 评价 ， 也 可 能 间接 通过 
表达 对 其 他 事件 的 观点 来 展现 作者 对 给 定 目标 
话题 的 立场 ， 因 此 给 定 的 目标 话题 不 一 定 会 在 
文本 中 明确 显现 站。 

目前 国内 外 学 者 提出 的 立场 判别 研究 方法 
主要 是 在 以 下 两 类 文本 倾向 性 分 析 方 法 的 基础 
上 展开 的 : @ 基于 情感 规则 的 分 析 。 通 过 借 
助 情感 词典 等 资源 提取 文本 中 的 情感 因子 ， 并 
考虑 情感 因子 与 特征 对 象 的 依存 关系 ， 对 倾 
向 值 进行 简单 统计 从 而 得 到 文本 整体 的 情感 倾 
癌 。 但 是 这 类 方法 往往 不 能 捕捉 到 隐 含 的 文本 
语义 关系 。 这 类 方法 的 代表 有 : Y. Lu 等 人 提 
出 了 一 种 基于 统一 原则 的 自动 构建 与 上 下 文 相 
关 的 情感 词典 的 最 优化 方法 四，C. J. Hutto 等 
人 提出 的 VADER 规则 模型 综合 考虑 英文 文本 
的 情绪 知识 、 语 法 结构 以 及 语义 特征 ， 对 情 
感 强度 进行 了 细致 区 分 中， 陈 忆 金 等 人 提出 的 
和 与 情意 见 句 定量 计算 方法 能 够 抽取 熏 情 意见 句 
的 主题 ， 并 针对 该 主题 对 帖子 进行 情感 倾向 
分 析 外 ， 刘 全 超 等 人 针对 微 博 内 容 特 征 以 及 转 
发 、 评 论 关系 特征 ， 构 建 情感 分 析 用 词典 、 网 
络 用 语词 典 以 及 表情 符号 库 ， 设 计 了 基于 短 
语 路 径 的 微 博 话 题 情感 倾向 性 判定 算法 "; B. 
K. Y. Tsou 等 人 通过 计算 词语 的 语义 倾向 ， 综 
合 考虑 极 性 元 素 分 布 、 密 度 和 语义 强度 来 分 析 
新 闻 文 本 的 情感 倾向 站。@ 基于 机 器 学 习 的 
方法 。 在 特征 提取 的 基础 上 采用 机 器 学 习 模 型 
构造 分 类 器 ， 从 而 将 文本 倾向 性 分 析 转 化 为 分 
类 问题 ， 但 是 这 类 方法 不 能 很 好 地 考虑 到 名 
式 以 及 上 下 文 因素 的 影响 。 比 如 M, Wojatzki 
等 人 使 用 基于 Stacking 的 组 合 分 类 方法 ， 在 
提 取 n-gram、syntactic、lexicon、target- 
transfer、concept 等 特征 后 ， 采 用 可 训练 的 元 
学 习 方 法 来 组 合 多 种 基 分 类 器 用 以 实现 立场 判 
别 外 ，P. Anand 等 人 提出 了 一 种 针对 在 线 实时 
讨论 的 立场 判别 模型 ， 采 用 JRIP 算法 不 断 进 行 
规则 的 归纳 学 习 ， 根 据 规则 提取 相关 特征 后 用 
朴素 贝 叶 斯 算法 进行 分 类 "，S. M. Mohammad 
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等 人 根据 人 工 建 立 的 词语 粒度 情感 词典 和 情感 符 
号 词典 ,提取 文 本 的 语义 特征 和 情感 特征 来 构造 
特征 向 量 ， 采 用 SVM 算法 判别 Twitter 文本 中 
某 一 特定 评价 对 象 的 情感 倾向 "1;B. Velichkov 
等 人 利用 GATE 框架 抽取 特征 信息 ， 然 后 采 
用 线性 SVM 模型 对 特征 向 量 进行 分 类 号 ，W 
Casey 等 人 针对 Twitter 数据 定义 了 评价 信息 词 
组 ， 并 为 其 定义 了 attitude、orentation 、force、 
focus、polarity 五 大 属性 ， 提 取 文 本 中 的 属性 
特征 作为 SVM 分 类 器 的 输入 ;A. Severyn 
等 人 采用 卷 积 神经 网 络 模 型 进行 情感 分 析 ， 将 
字 级 别 的 词 向 量 作为 原始 特征 ， 利 用 多 个 不 同 
大 小 的 卷 积 核 对 特征 向 量 进行 串 接 ， 获 得 了 较 
高 的 准确 率 中 1。 

面 对 立 场 判别 问题 ， 对 中 文 微 博 进行 立 
场 判 别 的 难度 大 于 英文 微 博 ， 主 要 原因 有 : 
Q@ 分 词 是 中 文 文本 分 析 的 关键 步 又， 分词 结果 
的 好 坏 将 直接 影响 模型 的 准确 度 ，@ 微 博 的 表 
达 方 式 较为 随意 ， 微 博 作 者 针对 某 一 个 话题 党 
常会 自动 生成 一 些 相关 的 网 络 用 语 和 昵称 ， 比 
如 “ 土 鸡 ”“ 烧 高 香 ”“ 坑 人 ”等 ，@ 微 博 文本 语 
义 关系 更 加 隐 星 ， 有 研究 表明 ， 传 统 的 依存 句 
法 分 析 方 法 并 不 适合 提取 微 博文 本 的 评价 对 和 象 
和 评价 词 中 。 鉴 于 以 上 间 题 ， 本 文 在 结合 情 
感 加 权 算 法 和 朴素 贝 叶 斯 算法 的 基础 上 ， 提 出 
了 一 种 将 三 分 类 问题 转化 成 多 次 二 分 类 问题 的 
SWNB (serial sentiment weighted and naive 
bayes model) 模型 ， 采 用 半 监 督学 习 方法 ， 针 
对 特定 话题 扩充 了 情感 词 库 并 建立 了 关联 实体 
集 ， 帮 助 提 升 评价 对 象 提取 的 准确 度 ; 提出 了 
能 够 同时 对 复杂 句 式 、 话 题 相关 实体 进行 处 理 
的 情感 加 权 规 则 ， 有 效 地 区 分 出 文本 是 否 表达 
立场 ， 将 朴素 贝 叶 斯 算法 着 眼 于 文本 中 的 情感 
词 、 否 定 词 、 关 联 词 、 程 度 副 词 等 各 类 语义 元 
素 ， 从 而 对 微 博 的 立场 进行 细致 判别 。 


全 特征 概述 


3.1 情感 特征 词 
本 文 参 考 了 台湾 大 学 NTUSD 简体 中 文 
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情感 词典 (http://nlg.csie.ntu.edu.tw/) 、 中 
知 网 HowNet 中 文 情感 词典 (http://www. 
keenage.com/) 来 构建 情感 词 表 ， 过 滤 掉 情感 
倾向 模棱两可 的 词语 。 由 于 目前 已 有 的 情感 
词典 资源 不 具有 针对 性 ， 有 一 些 动词 和 情感 
词 只 有 出 现在 与 某 一 目标 话题 相关 的 语 境 中 
才 会 表现 出 一 定 的 情感 倾向 ， 这 些 词 也 应 该 
被 视 为 情感 项 。 例 如 ， 在 话题 “iPhone SE” 的 
相关 微 博 中 常常 出 现 “ 买 "*“ 入 手 ” 等 动词 ， 说 
明 作 者 对 其 所 描述 的 事物 持 肯 定 态 度 ; 在 话 
题 “ 春 节 放 条 炮 ” 的 相关 微 博 中 带 党 出 现 * 有 声 
有 人 色 ”“ 年 味 十 足 ” 等 形容 词 ， 说 明 作 者 喜爱 放 
团 炮 这 一 习俗 。 因 此 本 文人 工 补充 了 一 些 与 
各 目标 话题 相关 的 具有 正 向 或 负 问 情感 倾向 
的 动词 和 形容 词 。 
3.2 关联 实体 

微 博 作 者 通过 评价 与 某 一 目标 话题 直接 
或 间接 相关 的 实体 对 象 ， 来 直接 或 间接 地 展现 
对 该 目标 话题 所 持 有 的 立场 ， 本 文 定 义 这 些 实 


一 实体 名 称 (Normal Entity Name) 
目标 话题 (Target) 


每 个 目标 话题 对 应 的 关联 实体 库 包 含 该 目 
标 话 题 的 核心 实体 集 以 及 按照 比较 / 并 列 等 关 
系 划 分 的 普通 实体 集 。 在 构造 关联 实体 库 的 过 
程 中 ， 本 文 使 用 NLPIR 系统 的 关键 词 识 别 功 
能 提取 出 各 个 目标 话题 的 微 博 中 的 关键 词 ， 使 
用 NLPIR 系统 (http://ictclas.nlpir.org/〉 的 词 
性 标注 功能 提取 出 各 个 目标 话题 的 微 博 中 的 名 
词 ， 对 这 些 词 进行 词 频 统 计 ， 辅 以 人 工 筛选 得 
到 各 个 目标 话题 对 应 的 核心 实体 。 然 后 以 各 个 
核心 实体 作为 种 子 词 ， 针 对 包含 该 核心 实体 的 
微 博 ， 按 照 宋 锐 等 人 提出 的 四 类 比较 名 模式 
9 找 出 含有 比较 关系 的 微 博 ， 采 用 序列 标注 
中 常用 的 条 件 随 机 域 模型 (Condition Random 
Field)"" 提取 出 比较 主体 、 比 较 客体 及 其 词 
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体 对 象 为 关联 实体 。 有 效 识别 文本 中 的 关联 实 
体 ， 通 过 分 析 微 博 作 者 对 这 些 实体 持 有 的 情感 
态度 来 判断 作者 对 该 目标 话题 持 有 的 立场 ， 将 
使 立场 判别 工作 具有 针对 性 ， 从 而 提高 判别 精 
度 。 在 构建 关联 实体 库 的 过 程 中 ， 本 文 定义 了 
以 下 基本 术语 和 数据 结构 : 

(1) 核心 实体 (Core Entity) : 代表 与 该 
目标 话题 Target) 直接 相关 的 核心 内 容 (人 、 事 
物 、 组 织 ) 等 。 某 个 目标 话题 对 应 的 核心 实体 
集 可 表示 为 Target: {core entity 1，core entity 2， 
core entity 3, ...}。 

(2) 普通 实体 (Normal Entity) : 代表 与 
该 目标 话题 〈Target) 间接 相关 ， 但 与 该 目标 话 
题 的 核心 实体 之 间 存 在 比较 / 并 列 关 系 。 如 果 两 
个 实体 之 间 是 比较 关系 ， 那 么 通常 对 两 个 实体 
表现 的 是 不 同 的 情感 倾向 ， 如 果 两 个 实体 之 间 
是 并 列 关 系 ， 那 么 通常 对 两 个 实体 表现 的 是 相 
似 的 情感 倾向 。 某 个 Target 对 应 的 普通 实体 可 
按照 以 下 结构 表示 : 


相关 联 的 核心 实体 (Corresponding core entity): 来 自 核心 实体 集 
与 核心 实体 的 关系 (Relationship with core entity): 比较 关系 / 并 列 关系 
L 情感 倾向 : 正 向 (positive)/ 负 向 (negative) 


性 、 位 置 ， 若 提取 出 的 主体 或 客体 中 包含 核心 
实体 ， 则 将 另 一 方 非 核心 实体 按 上 述 数据 结构 
定义 后 加 入 到 普通 实体 集中 。 对 于 未 包含 比较 
关系 的 微 博 ， 使 用 哈尔滨 工业 大 学 语言 云 平台 
Chttp:Wwww.ltp-cloud.com/) 中 的 依存 句法 
分 析 工 具 标 注 出 微 博 中 的 并 列 关系 成 分 ， 提 取 
与 该 核心 实体 存在 并 列 关系 的 实体 ， 按 上 述 数 
据 结构 定义 后 加 入 到 普通 实体 集中 。 对 于 一 些 
无 法 确定 的 实体 ， 人 工 辅 助 对 其 进行 盘 选 。 以 
本 文 实验 所 使 用 的 数据 集 为 例 ， 数 据 集中 包含 
“春节 放 鞭 炮 ”“iPhone SE”“ 俄 罗斯 在 叙利亚 
的 反 汐 行动 “开放 二 胎 ”* “深圳 禁 摩 限 电 ”5 个 
话题 ， 为 每 个 目标 话题 构建 了 相应 的 关联 实体 
库 ， 如 表 1 所 示 : 
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表 1 关联 实体 库 
目标 话题 核心 实体 数量 核心 实体 示例 普通 实体 数量 普通 实体 示例 
向 ,| 人 国内 村 从 消 逢 , 空气 , 渤 涩 , 壳 霜 
花炮 噪音 .……… 
. iPhone 5s，iPhone SC， 小 
iPhone SE 4 0 和 5SB， 芋 困 SE, 39 米 ， 华 为 ，4s，6s， 革 果 6， 
Re iPhone 6, 苹果 , 蔷 果 系统 
十 X5， 恐怖 组 织 ， 司 ， 奥 
俄罗斯 在 叙利亚 的 。 俄罗斯, 叙利亚 政府 军 , 普京， 4。 下 划 全 人 本， 村 
反恐 行动 叙利亚 ee eh 
东突 ， 萨 达 姆 .….. 
计划 生育 ， 政 府 ， 婚 假 
开放 二 胎 3 开放 二 胎 ， 全 面 二 胎 ， 二 胎 10 婚 晚育 假期 ， 晚 婚 晚 育 ， 
独生子 女 政策 .……. 
深圳 禁 摩 限 电 3 禁 摩 限 电 ， 限 电 ， 禁 摩 9 有 动车， 摩托 车 ， 政 府 ， 


3.3 从 名 关联 词 

根据 语法 关系 ， 通 党 复杂 句 可 以 分 为 转 
折 、 条 件 、 假 设 、 因 果 句 等 ， 它 们 都 有 其 特定 
的 从 名 关联 词 。 诸 如 “虽然 “不 论 “ 即 使 "这 一 类 
关联 词 ， 通 常 引导 的 分 句 与 作者 的 真实 感情 相 
反 , 这 一 类 关联 词 常 被 称 兴 让 步 关 联 词 ? 诸如 但 
是 “可 是 ”这 一 类 关联 词 ， 它 们 所 引导 的 分 句 所 
表达 的 情感 与 作者 的 真实 情感 相同 ， 这 一 类 关 
联 词 常 被 称 为 “坚持 关联 词 ”1。 


表 2 关联 词 表 
种 类 常用 关联 词 
虽然 、 尽 管 、 固 然 、 不 论 、 无 论 、 不 
让 步 关联 词 ” 管 、 任 凭 、 即 便 、 即 使 、 纵 然 、 就 算 、 
哪怕 、 纵 使 、 与 其 、 宁 可 
但 是 、 可 是 、 然 而 、 然 则 、 但 、 可 、 
不 过 、 不 如 、 也 


坚持 关联 词 


3.4 强度 修饰 词 

情感 词 强 度 会 受到 副词 和 否定 词 修 饰 的 
影响 路。 车 文本 中 有 否定 词 修饰 情感 词 ， 则 
文本 表达 的 情感 倾向 会 发 生 反 转 ， 因 此 本 文 
收集 了 一 些 常用 的 否定 词 用 于 识别 否定 句 。 
若 文本 中 有 程度 副词 修饰 情感 词 ， 则 文本 表 
达 的 情感 强 弱 程 度 存 在 差异 ， 本 文 将 程度 副 
词 划 分 为 最 Imost、 很 |lvery、 较 Imore、 稍 
|-ish、 欠 linsufficiently、 超 lover 六 个 等 级 ， 设 
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定 每 个 等 级 的 程度 副词 对 应 的 权重 分 别 为 
2、1.25、1.2、0.8、0.5、1.5， 以 此 来 对 不 同 强 
度 的 情感 倾向 进行 细致 区 分 。 


全 立场 判别 模型 


将 立场 判别 看 成 分 类 问题 ， 本 文 SWNB 模 
型 则 将 三 种 立场 的 分 类 转化 成 了 多 次 二 分 类 问 
题 趾 。 首 先 使 用 一 种 新 的 情感 加 权 算 法 来 将 
微 博 分 为 包含 立场 〈 非 NONE) 和 未 表明 立场 
CNONE) 两 类 ; 然后 使 用 朴素 贝 叶 斯 算法 对 被 
第 一 层 分 类 器 划分 为 包含 立场 ( 非 NONE) 的 
微 博 进 行 二 分 类 ,将 其 立场 分 为 支持 (FAVOR ) 或 
反对 (AGAINST) 。SWNB 模型 的 总 体 框架 如 
1 所 示 。 
4.1 情感 加 权 算 法 

在 对 微 博 文本 进行 情感 权 值 计算 时 ， 首 先 
根据 <。”“ !”“......”? 和 “? ?等 标点 符号 将 微 博 
文本 进行 断 句 ， 微 博文 本 转化 为 一 系列 句子 的 
集合 Microblog = (C51,S2,.….,Sn) 。 然 后 依据 本 文 
提出 的 句 式 模型 利用 从 名 的 关联 词 将 复杂 名 转 
化 为 简单 句 ， 接 着 使 用 情感 加 权 算 法 计算 每 个 
句子 的 情感 权 值 ， 再 通过 判断 微 博 中 是 否 出 现 
与 该 目标 话题 相关 的 关联 实体 以 及 该 实体 与 目 
标 话题 的 核心 实体 之 间 的 关系 ， 来 调整 前 述 步 
又 中 得 到 的 该 句 的 情感 权 值 。 最 后 取 所 有 句子 
情感 值 的 平均 值 作为 该 条 微 博 的 情感 权 值 。 
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图 1 SWNB 模型 整体 框架 


在 分 类 器 训练 阶段 ， 本 文 使 用 一 种 基于 grid 
search 算法 的 边界 探测 方法 中 寻找 出 划分 非 
NONE 和 NONE 的 情感 权 值 的 最 佳 上 界 闷 值 和 
最 佳 下 界 阔 值 (这 两 个 国 值 使 训练 数据 的 分 类 
准确 率 最 高 )。 在 分 类 器 应 用 阶段 ， 当 待 分 类 
文本 的 最 终 情 感 权 值 位 于 该 上 界 阔 值 和 下 界 效 
值 构成 的 区 间 内 ， 待 分 类 文本 的 立场 将 被 分 为 
NONE， 和 否则 竺 分 类 文本 的 立场 为 非 NONE。 人 情 
感 加 权 算 法 的 流程 图 如 图 2 所 示 。 

4.1.1 复杂 句 的 处 理 策略 

由 于 让 步 关 联 词 引导 的 从 名 往往 与 作者 的 
真实 情感 相反 ， 坚 持 关联 词 引 导 的 从 句 往往 与 
作者 的 真实 情感 相同 ， 因 此 对 两 者 之 一 进行 情 
感 分 析 即 可 号 。 一 般 ， 复 杂 句 式 存 在 以 下 表现 
形式 : 

[让 步 关联 词 + 否定 词 + 情感 词 + 标点 +] 
坚持 关联 词 + 否定 词 + 情感 词 

扫描 微 博 中 的 每 个 句子 Sn， 先 看 是 否 出 现 
坚持 关联 词 ， 若 未 出 现 坚持 关联 词 ， 则 直接 按 
照 下 文 的 情感 规则 计算 情感 值 。 若 出 现 坚 持 关 
联 词 ， 扫 描 从 句子 开头 至 坚持 关联 词 的 这 部 分 
文本 ， 若 此 部 分 含有 让 步 关 联 词 ， 将 让 步 关联 
词 引导 的 分 名 情感 值 设 为 0， 此 部 分 其 他 的 分 句 
按照 下 文 的 情感 规则 计算 情感 值 ， 知 此 部 分 不 
含有 让 步 关 联 词 ， 则 将 从 句子 开头 至 坚持 关联 
词 之 前 的 这 部 分 文本 情感 值 设 为 0。 


【 断 句 】 根 据 相关 
标点 符号 将 微 博文 本 进 
行 断 句 ， 微 博文 本 转化 
为 一 系列 句子 的 集合 


处 理 关联 实体 ， 调 整 句 
子 的 情感 权 值 


! 


整 条 微 博 的 情感 权 值 = 各 


句子 情感 权 值 的 平均 值 


下 界 阔 值 《 
整 条 微 博 的 情感 权 值 
《 上 界 阔 值 


图 2 情感 加 权 算 法 流程 图 
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4.1.2 句子 情感 权 值 计算 规则 

在 对 复杂 名 进行 简化 之 后 ， 一 个 完整 句子 
的 情感 值 可 直接 通过 计算 各 分 句 情感 值 之 和 得 
到 ， 而 分 句 情感 值 是 基于 分 句 中 各 个 情感 意 群 
的 情感 值得 到 的 。 分 句 中 每 出 现 一 个 情感 词 ， 就 
认为 出 现 了 一 个 情感 词 意 群 。 否 定 词 和 程度 副 
词 也 会 对 意 群 表达 的 情感 程度 产生 影响 ， 因 此 
计算 句子 情感 权 值 时 需要 考虑 上 下 文中 出 现 的 
和 否定 词 和 程度 副词 。 

(1) 抽取 分 句 中 的 情感 词 意 群 ， 将 情感 词 
的 相关 信息 按 如 下 形式 表示 : 

senWord = ( 句 中 位 置 ， 


情感 倾向 ， 情 感 


区 


权 值 ) 
其 中 正 向 情感 词 权 值 设 为 1， 负 向 情感 词 权 
值 设 为 -1。 


(2) 将 上 一 个 情感 词 意 群 的 位 置 
(lastWordPos) 或 者 上 一 个 标点 符号 的 位 置 
(lastPuncPos) 作为 起 始点 〈 选 距离 当前 情感 词 

意 群 最 近 的 位 置 ) ， 在 起 始点 和 当前 情感 词 意 
群 之 间 扫 描 : 

a. 抽取 程度 副词 ， 将 程度 副词 的 相关 信息 
以 如 下 形式 表示 : 

degreeWord = ( 句 中 位 置 ， 权 值 ) 

b. 抽取 否定 词 ， 当 否 定 词 位 置 先 于 程度 副 
词 位 置 时 ， 则 将 否定 词 权 重 赋值 为 -1， 和 否则 将 和 否 
定 词 权 重 赋 值 为 0.5。 知 该 分 句 中 出 现 多 个 否定 
词 , 则 当 和 否定 词 个 数 为 奇数 时 否定 词 权 重 不 变 , 当 
否定 词 个 数 为 偶数 时 和 否定 词 权 重 取 相 反 数 。 

(3) 情 感 词 意 群 的 情感 权 值 采用 公式 (1) 进 

行 计算 : 
ScOre = WnegWord * WdegreeWord * WsenWord 
公式 (1) 

分 句 的 情感 权 值 为 分 句 中 各 情感 词 意 群 的 
情感 倾向 值 之 和 。 一 个 完整 句子 So 的 情感 值 
Ws, 基于 各 分 句 的 情感 权 值 采用 公式 (2〉 加 和 
得 到 。 


Ws, = >» W subsentence 
4.1.3 关联 实体 的 处 理 策略 


公式 (2) 


ChinaXiv 合 作 期 刊 


含 目标 话题 的 核心 实体 ， 则 句子 情感 倾向 值 不 
变 ， 车 该 句子 中 包含 目标 话题 的 普通 实体 日 普 
通 实体 被 定义 为 正 向 情感 倾向 ， 则 句子 情感 倾 
向 值 不 变 ; 若 该 句子 中 包含 目标 话题 的 普通 实 
体 日 普通 实体 被 定义 为 负 向 情感 倾向 ， 则 句子 
情感 倾向 值 取 相 反 数 ， 若 该 句子 中 既 无 核心 实 
体 也 无 普通 实体 ， 则 不 更 改 句 子 的 情感 倾向 值 。 

完成 上 述 三 个 步骤 后 ， 一 条 微 博文 本 的 情 
感 值 为 各 句子 情感 值 的 平均 值 。 

Wiinal =avg (Ws, Ws,,..., Ws;) 
4.2 朴素 贝 叶 斯 算法 

对 被 情感 加 权 算 法 划分 为 非 NONE 的 微 博 
使 用 朴素 贝 叶 斯 算法 进行 立场 判别 〈 文 持 或 反 
对 ) 的 二 分 类 工作 ,对照 情 感 词 库 、 否定 词 表 、 程 
度 副 词 表 以 及 各 个 目标 话题 的 关联 实体 库 提取 
出 每 条 微 博 文本 中 的 情感 词 、 关 联 实体 、 否 定 
词 、 程 度 副词 ， 将 它们 作为 特征 词 ， 计 算 这 些 
特征 项 和 各 类 别 的 联合 概率 ， 从 而 估计 给 定 微 
博文 本 的 分 类 概率 。 本 文采 用 朴素 帆 叶 斯 分 类 
器 中 的 伯 努 利 模型 所 来 判断 微 博 X 所 属 的 类 别 


Cc: 


公式 (3) 


c= ro nl [ Ie IO) 公式 (4) 
Ci jy 


筛选 出 mn 个 特征 词 ， 对 每 一 条 微 博世 用 极 
大 似 然 估计 法 中 计算 P( 条 | CD) 时 ， 如 果 某 个 特 
征 词 在 训练 集 从 没 出 现 过 ， 会 导致 整体 的 概率 
计算 结果 为 0， 因 此 采用 拉 普 拉 斯 平滑 法 对 其 概 
率 值 进行 加 一 平滑 。 此 外 ， 多 个 P( 训 | CD 概率 
值 相 乘 的 结果 很 小 ， 能 否 在 概率 值 很 小 的 情况 
下 保证 较 高 的 计算 精度 将 对 结果 产生 影响 ， 因 
此 需要 对 该 值 进行 数据 转换 ， 使 其 呈现 方式 更 
好 地 接近 所 希望 的 假设 ， 进 行 更 准确 的 统计 推 
断 。 本 文 在 朴素 贝 叶 斯 算法 的 基础 上 ， 通 过 对 
P(Ci) TPG | CD) 取 对 数 的 方式 可 以 将 概率 值 

/j=l 


的 乘法 计算 转换 为 加 法 计算 ， 将 不 确定 性 分 
析 转 换 成 信息 量 的 分 析 ， 从 而 提高 计算 精 
度 , 提高 分 类 的 正确 率 , 计算 方法 如 公式 (5) 所 


扫描 微 博文 本 的 每 个 句子 ， 若 该 句子 中 包 


砂 : 
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c=argmax os| ma ， TI | | 
Ci j=1 


=argmax (log P(Ci) +log P(X1|C)+...+logP(Y| C7)) 


公式 (5) 


全 实验 与 分 析 


5.1 实验 数据 
本 文选 用 2016 NLPCC 评测 任务 中 立 
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场 判 别 任务 所 提供 的 部 分 语 料 作 为 实验 数 
据 集 ， 包 含 3 000 条 已 标注 的 训练 语 料 和 1 
000 条 黄金 测试 语 料 (gold data) 。 两 类 语 
料 均 包含 “iPhone SE” 春 节 放 其 炮 ”“ 俄 罗 其 
在 叙利亚 的 反 想 行动 “开放 二 胎 ”“ 深 圳 禁 摩 
限 电 ”5 个 目标 话题 的 微 博 数据 ， 表 3 和 表 4 
分 别 统计 了 两 个 语 料 中 各 目标 话题 的 数据 分 
布 情况 。 


表 3 3 000 条 已 标注 的 训练 语 料 统计 结果 


目标 话题 Favor Against None 总 数 

iPhone SE 245 209 146 600 

春节 放 鞭 炮 250 250 100 600 
俄罗斯 在 叙利亚 的 反 想 行动 250 250 100 600 
开放 二 胎 260 200 140 600 
深圳 禁 摩 限 电 160 32 138 600 


表 4 1 000 条 黄金 测试 语 料 ( gold data ) 测试 语 料 统计 结 


目标 话题 Favor Against None 总 数 

iPhone SE 85 94 21 200 

春节 放 葵 炮 88 94 18 200 
俄罗斯 在 叙利亚 的 反 想 行动 88 90 22 200 
开放 二 胎 94 86 20 200 
深圳 禁 摩 限 电 83 90 条 200 


5.2 实验 预 处 理 

在 清洗 数据 的 过 程 中 ， 通 过 添加 正则 的 方 
式 清除 微 博 内 容 中 的 @ 标记 、 转 发 标记 《〈 通 党 
以 W@ 开头 ) 以 及 网 页 链接 标记 (通常 以 http 
开头 ) 。 由 于 一 部 分 微 博文 本 是 与 各 个 Target 
相关 的 新 闻 内 容 ， 通 常 【 】 符 号 中 包含 了 新 闻 
的 关键 内 容 ， 能 够 表明 微 博 的 立场 ， 因 此 针对 
这 类 文本 ， 只 提取 了 【 ]】 符 号 中 的 内 容 来 分 析 。 
在 分 词 过 程 中 , 将 第 3 节 中 提 及 的 关联 实体 库 、 情 
感 词 表 、 从 句 关联 词 表 、 和 否定 词 表 以 及 程度 副 
词 表 整合 后 作为 用 户 自 定义 词典 添加 到 中 国 科 
学 院 的 NLPIR 分 词 系统 中 ， 以 此 来 提升 分 词 效 
果 。 在 去 停 用 词 过 程 中 ， 使 用 哈工大 信息 检索 


中 心 发 布 的 停 用 词 表 来 对 微 博 中 的 停 用 词 进行 
匹配 查询 后 将 其 去 除 。 
5.3 实验 设计 
作为 对 比 ， 选 取 以 下 3 种 模型 来 对 相同 的 

数据 集 进行 立场 判别 : 

(1) 朴素 贝 叶 斯 三 分 类 模型 (NB 模 
型 ) : 使 用 第 上 文 提出 的 朴素 贝 叶 斯 分 类 需 
的 伯 努 利 模型 来 将 某 一 条 微 博 的 立场 划分 为 
FAVOR、AGAINST 或 NONE。 

(2) SVM 三 分 类 模型 : 将 每 一 条 微 博 用 
一 个 特征 向 量 表 示 ， 将 其 作为 输入 SVM 算法 的 
输入 ， 识 别 三 种 立场 后。 表 5 列 出 了 SVM 模 
型 的 所 有 特征 类 型 及 含义 。 
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表 5 SVM 模型 的 特征 类 型 及 含义 的 LibSVM (https:/www.csie.ntu.edu.tw/~cjlin/ 


特征 类 型 含 义 libsvm/) 工具 包 来 实现 。 
Bigram Bigram 语言 特征 5.4 实验 结果 与 分 析 
Sentiment score 情感 权 值 5.4.1 实验 1 
Negations 否定 词 个 数 针对 每 个 模型 都 做 了 两 组 实验 ， 实 验 1 将 
DegreeAdverb 程度 副词 个 数 3 000 条 已 标注 的 训练 语 料 中 5 个 目标 话题 对 应 
Associated Entities 关联 实体 个 数 的 数据 按 6:4 的 比例 随机 拆 分 成 两 部 分 ， 分 别 作 
为 训练 集 和 测试 集 ， 最 终 训 练 集 共 包含 1 800 条 
(3) Glove_SVM 模型 : 文献 [4] 将 无 监督 


数据 (其 中 每 个 目标 话题 包含 360 条 数据 ) ， 测 
试 集 共 包含 1 200 条 数据 (其 中 每 个 目标 话题 包 
含 240 条 数据 ) 。 

表 6 列 出 了 实验 1 中 测试 数据 的 整体 F 值 
以 及 各 个 目标 话题 对 应 的 F 值 。 图 3 中 的 折线 


学 习 的 GloVe 算法 训练 出 的 单词 词 向 量 加 和 后 
得 到 微 博 文本 的 向 量 表示 ， 将 其 作为 逻辑 回归 
模型 的 输入 。 

在 评价 模型 的 实验 效果 时 ， 本 文 使 用 准确 


率 、 召 回 率 、F 值 等 指标 对 Favor 和 Against 这 图 对 测试 数据 在 各 模型 的 整体 实验 结果 进行 了 
两 类 立场 分 类 结果 进行 评测 。 在 实现 中 ， 涉 。 可 视 化， 柱状 图 对 各 个 目标 话题 对 应 的 实验 结 
及 到 SVM 算法 的 分 类 工作 采用 台湾 大 学 开发 果 进 行 了 可 视 化 。 


个 过 


表 6 3 000 条 标注 数据 按照 6:4 比例 划分 后 的 实验 结果 


有 俄罗斯 在 叙利亚 的 ， 
Overall iPhone SE 春节 放 团 炮 ”开放 二 胎 反恐 深圳 禁 摩 限 电 
分 类 器 轴 
Favg Favg Favg Favg Favg Favg 
NB 0.546 641 665 0.472673267 0.541 747904 0.498 002 426 0.349 370 047 0.601 350 119 
SVM 0.484 132 088 0.415 827 338 0.512 185 346 0.422 314 381 0.453 263 158 0.113 079 260 


Glove SVM 0.528382279 0.449099099 0.514 323 367 0.565 268 817 0.480716 253 0.430 696 393 


SWNB 0.572687486 0.505 083450 0.654 954425 0.566974999 0.558 544 967 0.561 043 048 

各 0.7 0.58 

0.6 0.56 
= 0.54 整 
四 0.52 体 
路 ”0.4 . 
的 0.48 值 

0. 
品 0.46 
值 0.1 0.44 

0 0.42 
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图 3 实验 1 结果 
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从 实验 结果 可 以 发 现 ， 除 了 话题 “俄罗斯 在 
叙利亚 的 反恐 行动 "，SVM 三 分 类 模型 的 F 值 
均 低 于 NB 模型 和 Glove SVM 模型 ， 说 明 特 征 
选择 的 好 坏 对 于 SVM 模型 的 分 类 效果 影响 很 
大 。 一 方面 ， 将 词 的 bigram 作为 文本 特征 ， 数 
据 规模 较 大 ， 另 一 方面 ， 和 否定 词 个 数 、 程 度 副 
词 个 数 以 及 关联 实体 个 数 等 特征 并 不 能 刻画 三 
者 之 间 的 情感 修饰 关系 。 而 GLOVE_SVM 算法 
通过 Glove 算法 训练 出 词 向 量 ， 进 而 得 到 文本 
向 量 ， 通 过 深度 学 习 考 虑 到 了 文本 中 不 同 粒度 
的 潜在 语义 关系 ， 能 够 更 好 地 表示 文本 特征 。 
朴素 贝 叶 斯 算法 将 某 一 条 微 博 的 立场 直接 划分 
为 FAVOR、AGAINST 或 NONE， 整 体 结果 
值 较 高 ， 说 明 朴 素 贝 叶 斯 模型 在 识别 FAVOR 和 
AGAINST 这 两 种 立场 时 准确 率 较 高 。 

相 比 于 NB 模型 、SVM 模型 和 Glove_ SVM 
模型 ， 本 文 的 SWNB 模型 针对 5 个 目标 话题 进 
行 立场 判别 的 结果 更 准确 。SWNB 模型 在 将 微 
博 立 场 划 分 为 包含 立场 ( 非 NONE) 和 未 表明 
立场 (NONE) 两 类 时 ， 考 虑 到 了 微 博文 本 中 
是 否 出 现 与 话题 有 关 的 实体 ， 进 而 分 析 微 博 作 
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者 对 这 些 实体 持 有 的 情感 态度 来 判断 作者 对 该 
目标 话题 持 有 的 立场 。 在 立场 为 NONE 的 微 博 
中 ， 微 博 作 者 往往 只 对 相应 话题 的 事实 进行 了 
客观 分 析 ， 没 有 表达 任何 态度 ， 例 如 微 博 “ 开 
放 二 胎 ， 既 是 对 年 轻 人 勇气 的 考验 ， 也 是 对 笃 
和 爷 奶 奶 们 精力 的 考验 。 中 国父 母 既 要 含 辛 茹 阁 
养育 自己 的 孩子 ， 还 要 劳 心 劳力 照顾 孩子 的 孩 
子 ， 不 容易 。” 并 没有 透露 作者 对 “开放 二 胎 ” 这 
一 政策 的 明确 态度 。 改 进 后 的 朴素 贝 叶 斯 算法 
对 被 划分 为 包含 立场 〈 非 NONE) 的 微 博 进行 
二 分 类 时 重点 考虑 了 情感 特征 词 ， 关 联 实体 、 否 
定 词 、 程 度 副 词 的 影响 。 
5.4.2 实验 2 

为 进一步 验证 本 文 模型 的 有 效 性 与 合理 
性 ， 实 验 2 使 用 3 000 条 已 标注 的 训练 语 料 作 为 
训练 集 ，1 000 条 黄金 测试 语 料 (gold data) 作 
为 测试 集 来 进行 实验 。 表 7 列 出 了 实验 2 中 测 
试 数据 的 整体 F 值 以 及 各 个 目标 话题 对 应 的 F 
值 。 图 4 中 的 折线 图 对 测试 数据 的 整体 F 值 进 
行 了 可 视 化 ， 柱 状 图 对 各 个 目标 话题 对 应 的 F 
值 进 行 了 可 视 化 。 


表 7 3 000 条 标注 数据 作为 训练 集 、1 000 条 黄金 测试 语 料 ( gold data ) 作为 测试 集 的 实验 结果 


em Overall iphone SE ”春节 放 散 炮 。 ”开放 二 胎 0 于 深圳 瑟 摩 限 电 
Fo Fo Fo i Fo 

NB 0.379 693 425 0.276 192 633 0.485 239 039 0.141 843 972 0.394790078 0.428 917 051 

SVM 0.289 700 706 0.255 267 664 0.307207412 0.211006494 0.369 406 393 0.137 407 407 

Glove SVM 0.420 293 605 0.537 173 203 0.516744 884 0.074766355 0.476 173 021 0.355 987 055 

SWNB 0.670 646 777 0.716 070 461 0.730 011 106 0.520535714 0.559 264 635 0.641 665 701 
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图 4 实验 2 结果 
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本 文 的 SWNB 模型 在 对 “iPhone SE”“ 春 节 
放 著 炮 ”" 这 两 个 目标 话题 的 微 博 进 行 立场 识别 
时 , F 值 都 可 达到 0.7; 话题 “开放 二 胎 ” 的 F 值 
最 低 ， 为 0.52; 其 他 两 个 目标 话题 的 F 值 居于 
0.52-0.7 之 间 。 对 该 结果 进行 分 析 发 现 ， 在 立场 
识别 错误 的 微 博 中 ， 话 题 “ 春 节 放 鞭炮 ”iPhone 
SE 俄罗斯 在 叙利亚 的 反 朴 行动 ”的 大 部 分 微 
博 被 识别 为 与 正确 结果 相反 的 立场 ， 主 要 是 这 
几 类 微 博 中 常 采 用 反 语 等 方式 表达 立场 ， 例 如 
“ 装 傻 ?俄罗斯 货币 跌幅 60， 石 油 经 济 奋 奋 一 
息 ，2015 年 GDP 下降 3.7， 感 情 都 是 俄罗斯 一 
盘 大 棋 ? ”通过 反问 对 俄罗斯 在 叙利亚 的 反恐 
行动 的 反对 立场 ， 因 此 在 第 二 层 分 类 器 中 只 提 
取 情 感 词 、 关 联 实体 、 否 定 词 、 程 度 副词 作为 
特征 词 时 不 能 很 好 地 识别 这 类 情况 ;话题 “ 开 
放 二 胎 " 和 “深圳 禁 摩 限 电 ”的 大 部 分 微 博 被 分 为 
NONE， 主 要 是 这 两 个 话题 的 微 博 直接 出 现 关 联 
实体 的 频率 较 低 ， 导 致 在 一 层 分 类 器 中 计算 情 
感 权 值 产 生 误 差 。 


@@ 结 语 


本 文 提 出 了 有 监督 的 SWNB 分 类 模型 来 
判别 中 文 微 博 话题 的 立场 。SWNB 模型 提出 
的 对 复杂 句 式 、 话 题 相 关 实 体 进行 处 理 的 新 的 
情感 加 权 规 则 ， 能 够 有 效 地 区 分 出 文本 是 否 表 
达 立 场 ， 改 进 的 朴素 贝 叶 斯 算法 能 对 被 情感 加 
权 算 法 划分 为 包含 立场 〈 非 NONE) 的 微 博 进 
行 二 分 类 ， 将 其 分 为 支持 (FAVOR) 或 反对 
(AGAINST) 立场 。 本 文 的 SWNB 模型 结合 
了 情感 规则 和 机 器 学 习 模型 的 优势 ， 充 分 考虑 
到 中 文 复杂 句 式 、 话 题 相关 实体 、 上 下 文 语 境 
以 及 文本 语义 对 文本 情感 倾向 的 影响 ， 实 现 简 
单 ， 研 判 精度 较 高 。 

然而 ，SWNB 模型 对 情感 词典 、 关 联 实体 
集 等 资源 的 完整 性 以 及 分 词 结果 的 准确 性 依赖 
较 大 。 此 外 ， 大 量 情感 词 存 在 歧义 ， 在 不 同 语 
境 中 表达 的 含义 存在 差别 ， 本 文 模型 目前 无 法 
对 含有 歧义 的 情感 词 进行 严格 区 分 ， 因 此 未 来 
需要 进一步 完善 情感 词典 等 资源 ， 并 结合 语义 


ChinaXiv 合 作 期 刊 


分 析 和 深度 学 习 技术 ， 以 期 能 更 加 准确 地 判别 
中 文 微 博 话题 的 立场 。 
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Stance Detection in Chinese Microblogs 


LiuKan Tian Ningmeng Wang Hongyu Lin Rongrong Wang Demin 
Department of Information, School of Information and Safety Engineering， 
Zhongnan University of Economics and Law, Wuhan 430073 

Abstract: [Purpose/significance] The paper introduces a new approach to automatically detect stance in 
Chinese microblogs by building a serial combination model based on Sentiment Weighted Algorithm and 
Naive Bayes (SWNB model). [Method/process] Firstly, this paper used the SWNB model to simplify 
complex sentences by using a defined complex sentence pattern, assigning a sentiment weight to each 
microblog according to calculation rules, and optimizing sentiment weight by detecting the presence of the 
target’s associated entities; thus, we could classify microblogs into those containing any stance or with no 
stance at all. Secondly, the SWNB model extracted some feature words and used Naive Bayes to classify 
the microblogs labeled as FAVOR or AGAINST. [Result/conclusion] Experiments show that this model can 
comprehensively process complex sentences, target-related entities and linguistic context. 
Keywords: Chinese microblogs stance detection sentiment weighted algorithm Naive Bayes 


